1
性能至上
AI031Lesson 5
00:00

现代优化是高层算法选择与底层机器感知之间的协作。尽管 渐近效率 定义了理论极限,但 性能至上 要求我们解决 常数因子 这些编译器无法单独处理的因子。

1. 优化层次结构

成功遵循线性过程:首先,消除 渐近低效 (例如,$O(N^2) \to O(N)$)。接着,解决 优化障碍——主要是 内存别名 以及函数调用开销(如恒定的 边界检查get_vec_element中)。

2. 数据流与约束

编译器出于安全考虑而保守;如果指针 *dest 可能与向量 data重叠,它们就不会进行优化。我们通过 每元素周期数(CPE)来衡量实际运行速度。性能通常用缩放因子建模,例如 $\alpha = 0.974$,其中开销会使执行曲线偏移(例如,$209/\alpha = 39.0$)。

150100500线性下界更优哈希大表快速排序初始线性下界更优哈希快速排序初始渐近瓶颈图 5.38(a):N-gram 性能扩展(CPU 秒)

3. 硬件现实

优化需要理解 退休单元关键路径。即使简单的循环也受限于功能单元的 吞吐量限制 或依赖链的 延迟限制 依赖链限制。

main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>